資料工程師最重要的角色是把真正的 Data Science 的事情給實現, 當然大家想到的是資料的處理與呈現, 但之前一定是要把資料抓當才行, 因此抓到資料的技術是資料工程師必備的能力, 就像是巧婦難為無米之炊.
而這邊比較接近的科目在圖書館學中叫資訊獲取 (Information Retrieval), 在資訊科系中是比較偏代理者程式 (Software Agent), 而在業界實務上就是 Crawler / Spider (爬蟲), 只是在 IR (Information Retrieval) 中比較聚焦的事在於如何評斷資訊的價值與正確性, 而 Agent 比較強調的是系統架構與模型, 而 Crawler 會注重如何開發與實務.
這三個角度也都是必要的, 就像是現在的課程也是三個 Track, 抓資料不只是要知道資料要抓甚麼, 怎麼抓, 也要知道怎樣抓更有效率, 成本更低, 最合乎使用, 然後去實作, 去應用, 這才是一個好的 Data Engineer 都要能做到.
就像是很多研究, 資訊獲取也是從量化與質化來去看分析模型:
量化模型常見的有:
質化模型常見的有:
考量點主要有前三點及其他衡量因素:
代理軟體的考量有三點:
所以最後導出的智慧代理系統有這我階段:
電子書:
關鍵字: